多元线性回归:定义与意义

作者:Ruben Geert van den Berg,归类于 回归分析

多元回归 (Multiple Regression) 是一种统计技术,旨在通过多个其他变量来预测一个感兴趣的变量。被预测的变量被称为因变量 (criterion)。用于预测因变量的变量被称为自变量 (predictors)。回归分析要求使用连续变量 (metric variables),但也存在特殊技术可以利用分类变量。

多元回归 - 示例

假设我经营一家公司,并且想了解员工的工作表现与他们的智商 (IQ)、工作动机和获得的社会支持之间的关系。直观地,我认为较高的智商、动机和社会支持与更好的工作表现相关。下图可视化了这个模型。

多元回归模型

目前,这个模型并没有真正帮助我解决任何问题;尽管该模型在直觉上是有道理的,但我们不知道它是否与现实相符。此外,该模型表明我的自变量(智商、动机和社会支持)与工作表现相关,但它没有说明这些假定关系有多强。本质上,回归分析提供了对这些关系强度的数值估计

为了使用回归分析,我们需要模型中四个变量(1 个因变量和 3 个自变量)的数据。因此,我们让员工参加一些测试来衡量这些变量。我们收集的部分原始数据如下所示。

多元回归 - 原始数据

多元回归 - 原始数据截图

多元回归 - 数据含义

下图说明了我们数据中每个变量的含义。

多元回归 - 数据代码本

关于这些测试的分数,测试 的分数范围从 0(尽可能低)到 100(尽可能高)。

智商 (IQ) 在普通人群中平均为 100 分,标准差为 15 分;粗略地说,我们将 70 分描述为非常低,100 分为正常,130 分为非常高。

多元回归 - B 系数

现在我们收集了必要的数据,我们让我们的软件(SPSS 或其他软件包)对它们运行多元回归分析。主要结果如下所示。

多元回归 - 输出中的 B 系数

为了使事情更具视觉效果,我们将 b 系数添加到我们的模型概述中,如下图所示。(我们稍后会讨论 beta 系数。)

多元回归 - 图表中的 B 系数

请注意,该模型现在量化了我们假定的关系的强度。准确地说,该模型表示:工作表现 = (0.31 x 动机) + (0.16 x 社会支持) + (0.27 x 智力) + 18.1。在我们的模型中,18.1 是一个与任何其他变量无关的基线分数。对于所有受访者来说,它是一个常数,这意味着每个受访者的分数都是相同的 18.1 分。

该公式显示了如何估计工作表现:我们在将每个自变量分数乘以某个数字后将它们加起来。这些数字被称为 b 系数或非标准化回归系数 (unstandardized regression coefficients):B 系数表示在其他条件相同的情况下,自变量每增加一个单位,因变量变化多少个单位。在这种情况下,“单位”可以非常字面地理解为所涉及变量的计量单位。这些可以是米、美元、小时,或者在我们的例子中,是在各种测试中获得的分数。

例如,我们的动机测试提高 1 分与我们的工作表现测试提高 0.31 分相关。这意味着 - 平均而言 - 在动机方面得分高 1 分的受访者在工作表现方面得分高 0.31 分。我们稍后会回到 b 系数。

多元回归 - 线性

除非另有说明,“多元回归”通常指的是单变量线性多元回归分析。“单变量”意味着我们正在预测恰好一个感兴趣的变量。“线性”意味着每个自变量和因变量之间的关系在我们的模型中是线性的。例如,下图可视化了动机和工作表现之间的假定关系。

多元回归 - 线性假设

请记住,线性是一个可能成立也可能不成立的假设。例如,动机和工作表现之间的实际关系也可能像下图所示那样是非线性的。

多元回归 - 非线性关系

在实践中,我们通常首先假设线性,然后检查一些散点图,以查看是否存在任何非线性关系的迹象。

多元回归 - Beta 系数

给定自变量的分数,b 系数对于估计工作表现很有用。但是,我们不能总是使用它们来比较自变量的相对强度,因为它们取决于自变量的尺度。

也就是说,如果我们使用以欧元为单位的薪水作为自变量,那么将其替换为以欧元分作为单位的薪水会将 B 系数降低 100 倍;如果薪水增加 1 欧元对应于工作表现增加 2.3 分,那么薪水增加 1 欧元分对应于(2.3 / 100 =)0.023 分。但是,您可能感觉到将欧元更改为欧元分并不能使薪水成为“更强”的自变量。

多元回归 - 变量尺度

解决这个问题的方法是标准化 (standardize) 因变量和所有自变量;我们将它们转换为 z 分数。这使所有变量具有相同的尺度:变量平均值以下或以上的标准差数。

如果我们使用这些 z 分数重新运行我们的回归分析,我们将获得允许我们比较自变量相对强度的 b 系数。这些标准化回归系数被称为 beta 系数。 Beta 系数是通过对标准化变量运行回归获得的 b 系数。下图显示了从我们的多元回归分析获得的 beta 系数。

多元回归 - Beta 系数

这里的一个小说明是,上述常数已从图中省略。在标准化所有变量之后,它始终为零,因为根据定义,z 分数始终具有零平均值。

多元回归 - 预测值

好的,现在回到 b 系数:请注意,我们可以使用 b 系数来预测每个受访者的工作表现。例如,让我们考虑一下我们第一位受访者亨利的分数,如下所示。

多元回归 - 一位受访者的预测值

对于亨利,我们的回归模型指出:工作表现 = (109 x 0.27) + (89 x 0.31) + (73 x 0.16) + 18.1 = 86.8。也就是说,亨利的工作表现预测值为 86.8。这是亨利根据我们的模型应该具有的工作表现分数。但是,由于我们的模型只是试图近似现实,因此预测值通常与我们数据中的实际值略有不同。我们现在将进一步探讨这个问题。

多元回归 - R 平方 (R Square)

我们可以让我们的软件为我们计算工作表现的模型预测值,而不是手动计算。这样做之后,每个受访者将有两个工作表现分数:通过我们的测试测量的实际分数和我们的模型得出的值。部分结果如下所示。

多元回归 - 观测值与预测值

现在,如果我们的模型表现良好,那么对于每个受访者来说,这两个分数应该非常相似。我们将通过创建一个散点图来检查情况如何,如下图所示。

多元回归 - R 平方散点图

我们看到实际值和预测值之间存在很强的线性关系。这种关系的强度通常表示为相关性。对于这些数据,实际工作表现分数和预测工作表现分数之间的相关性为 0.81。但是,我们经常报告此相关性的平方,称为 R 平方 (R square),为 0.65。 R 平方是预测值和实际值之间的平方(皮尔逊)相关性。我们对 R 平方感兴趣,因为它表明我们的模型能够预测感兴趣变量的程度。像我们发现的 0.65 的 R 平方值通常被认为是非常高的;我们的模型确实做得很好!

多元回归 - 调整后的 R 平方 (Adjusted R Square)

请记住,给定自变量的分数,b 系数允许我们预测工作表现。那么我们的软件是如何得出我们报告的 b 系数的呢?为什么它选择 0.31 作为动机,而不是 0.21 或 0.41 呢?基本的答案是,它计算出的 b 系数会导致预测值尽可能接近实际值。这意味着该软件计算出的 b 系数使我们数据的 R 平方最大化。

现在,假设我们的数据是我们目标人群的简单随机样本,由于抽样误差,它们与人群数据略有不同。因此,我们样本的最佳 b 系数对于我们的人群来说不是最佳的。这意味着如果我们对我们的人群使用我们的回归模型,我们也会发现一个略低的 R 平方值。调整后的 R 平方是我们对人群 R 平方的估计,如果我们对我们的人群使用我们的样本回归模型。调整后的 R 平方更真实地表明了我们模型的预测能力,而 R 平方则过于乐观。 R 平方的这种减少被称为收缩 (shrinkage),并且随着样本量的减少和自变量数量的增加而变得更糟。

多元回归 - 最后的说明

本教程旨在快速解释多元回归的基础知识。但是,在实践中,还会涉及更多问题,例如同方差性和多重共线性。这些超出了本教程的范围,但将在不久的将来提供单独的教程。